De acuerdo con Google “la pestaña de tendencias de YouTube permite que los usuarios descubran las novedades de YouTube” [1]. Esta es una lista común compuesta de videos actuales que se muestra a todos los usuarios de un mismo país. YouTube mantiene listas de tendencias diferentes para cada país, las cuales actualiza con una frecuencia de 15 minutos. Si bien Google no ha hecho público el método para calcular las listas de tendencias, ha comunicado que buscan seleccionar videos que representen la actualidad de YouTube y sean relevantes para los usuarios del país correspondiente. Algunos de los factores que tienen en cuenta son:
En base a estos criterios, es posible que se encuentren videos con bajas visitas en posiciones altas de la lista, si estas se comparan con otros videos de la misma lista.
El conjunto de datos seleccionado, YouTube Trending Video Dataset (updated daily) contiene la información de estas listas de tendencias de 11 países: Brasil, Canadá, Alemania, Francia, Gran Bretaña, India, Japón, Corea del sur, México, Rusia y Estados Unidos. Algunos de los datos que incluye son el título del video, la fecha de subida del video, la cantidad de likes y de visitas, etc. El conjunto de datos es actualizado con una frecuencia diaria y se agregan hasta 200 videos nuevos en las listas de tendencias por día. Se utilizará la versión 610 del conjunto de datos, la cual contiene datos actualizados hasta el día 7 de Abril de 2022.
El creador de este conjunto de datos propone algunos usos:
Añadiendo a estas propuestas, puede resultar interesante el estudio de estos datos para encontrar todo tipo de relaciones entre los datos de cada video y el entorno de YouTube, por ejemplo:
Otra área que resulta interesante explorar es automatizar la generación de alguno de los atributos del conjunto de datos, como la miniatura, el título o la descripción. Finalmente, la predicción del rendimiento de un video (visualizaciones, likes, dislikes) es otra razón que hace interesante el estudio de este conjunto de datos.
Los datos a analizar corresponden a los trendings de YouTube para el país de México, separado en dos dataset, uno que corresponde al principal, y un segundo dataset con información de las categorías disponibles para cada video.
Se comenzará cargando el dataset principal a un dataframe:
mx_dataset <- read.csv("./dataset/MX_youtube_trending_data.csv", encoding = "UTF-8")
head(mx_dataset, n = 20)
Las dimensiones del dataset son, 121.399 filas y 16 columnas.
dim(mx_dataset)
## [1] 121399 16
Una versión resumida del dataset se encuentra a continuación, en este resumen se indican:
Cantidad de items en la columna.
La clase y el modo de los valores de la columna.
Si la columna es de clase tipo numérico entrega valores estadísticos como: valor mínimo y máximo, la media y mediana, y los cuartiles 1 y 3.
summary(mx_dataset)
## video_id title publishedAt channelId
## Length:121399 Length:121399 Length:121399 Length:121399
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## channelTitle categoryId trending_date tags
## Length:121399 Min. : 1.00 Length:121399 Length:121399
## Class :character 1st Qu.:10.00 Class :character Class :character
## Mode :character Median :22.00 Mode :character Mode :character
## Mean :18.69
## 3rd Qu.:24.00
## Max. :29.00
## view_count likes dislikes comment_count
## Min. : 0 Min. : 0 Min. : 0 Min. : 0
## 1st Qu.: 378754 1st Qu.: 19048 1st Qu.: 123 1st Qu.: 898
## Median : 850201 Median : 53161 Median : 546 Median : 2289
## Mean : 2249624 Mean : 160530 Mean : 2323 Mean : 11988
## 3rd Qu.: 2089202 3rd Qu.: 146047 3rd Qu.: 1712 3rd Qu.: 6136
## Max. :278080610 Max. :16213758 Max. :879359 Max. :6817451
## thumbnail_link comments_disabled ratings_disabled description
## Length:121399 Length:121399 Length:121399 Length:121399
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
El dataset usado, en ocasión del primer hito, corresponde a mx_dataset, el cual encapsula los videos más tendenciosos de YouTube en la región de México. Este dataset contiene, 121399 filas de información, dónde cada fila corresponde a los datos de un video que fue considerado para su captura debido a que estuvo en tendencia en algún momento de su existencia. Las columnas del dataset corresponde a:
unique(mx_dataset)